**สรุปเอกสาร DAPO: ระบบการเรียนรู้แบบเสริมกำลัง (Reinforcement Learning) ขนาดใหญ่สำหรับโมเดลภาษา (LLM) แบบเปิดต้นฉบับ** **ทีมพัฒนา**: - นำโดย Qiying Yu จาก ByteDance Seed และสถาบันวิจัยอุตสาหกรรม AI (AIR) แห่งมหาวิทยาลัย Tsinghua - ร่วมมือกับมหาวิทยาลัยฮ่องกง และ SIA-Lab ของ Tsinghua AIR และ ByteDance Seed **บทคัดย่อ**: DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization) เป็นระบบการเรียนรู้แบบเสริมกำลัง (RL) ขนาดใหญ่สำหรับโมเดลภาษา (LLM) ที่เปิดเผยทุกขั้นตอนการฝึกอย่างเปิดกว้าง (open-source) เพื่อแก้ปัญหาการขาดความสามารถในการทำซ้ำ (reproducibility) ในงานวิจัยก่อนหน้า โดยระบบนี้ใช้โมเดลพื้นฐาน Qwen2.5-32B และทำคะแนนได้ 50 คะแนนในแบบทดสอบ AIME 2024 ซึ่งสูงกว่าผลงานก่อนหน้าของ DeepSeek-R1 (47 คะแนน) โดยใช้ขั้นตอนการฝึกเพียงครึ่งหนึ่ง **เทคนิคหลัก 4 ประการของ DAPO**: 1. **Clip-Higher**: เพิ่มความหลากหลายของระบบและหลีกเลี่ยงการล่มสลายของเอนโทรปี (entropy collapse) โดยแยกช่วงการตัด (clip) ออกเป็นสองส่วน: εlow (ต่ำ) และ εhigh (สูง) 2. **Dynamic Sampling**: ปรับปรุงประสิทธิภาพและความเสถียรของการฝึกด้วยการกรองตัวอย่างที่ให้ gradient เป็นศูนย์ 3. **Token-Level Policy Gradient Loss**: คำนวณ loss ในระดับ token แทนระดับตัวอย่าง เพื่อแก้ปัญหาการเรียนรู้ที่ไม่สมดุลในตัวอย่างยาว 4. **Overlong Reward Shaping**: ลดสัญญาณรบกวนของ reward และเพิ่มความเสถียรด้วยการกำหนดโทษแบบ gradual สำหรับตัวอย่างที่ยาวเกิน **ผลการทดลอง**: - DAPO ทำคะแนนสูงกว่า DeepSeek-R1 บนแบบทดสอบ AIME 2024 (50 vs 47 คะแนน) โดยใช้ขั้นตอนการฝึกน้อยกว่า 50% - แต่ละเทคนิคมีส่วนช่วยเพิ่มคะแนนประมาณ 2-8 คะแนน เมื่อทดสอบแบบเพิ่มทีละเทคนิค **การเปิดเผยข้อมูล**: - เปิดเผยโค้ดการฝึกบนเฟรมเวิร์ก verl - เผยแพร่ชุดข้อมูล DAPO-Math-17K ที่ผ่านการปรับรูปแบบคำตอบเป็นจำนวนเต็มเพื่อความสะดวกในการประเมิน **บทสรุป**: DAPO เป็นระบบ RL ขนาดใหญ่สำหรับ LLM แบบเปิดต้นฉบับที่แสดงให้เห็นว่าเทคนิคการปรับปรุงกระบวนการฝึกสามารถยกระดับความสามารถในการให้เหตุผลของโมเดลภาษาได้อย่างมีนัยสำคัญ โดยเฉพาะในงานที่ต้องใช้การคิดแบบลูกโซ่เหตุผล (Chain-of-Thought) ยาว